CHEM SCI｜基于约束贝叶斯优化，采用变分自编码器进行自动化学设计

Original 李晟段宏亮智药邦 2022-06-15

今天给大家介绍的是Chemical Science上的文章 " Constrained Bayesian optimization for automatic chemical design using variational autoencoders"。

自动化学设计是可以用来生成具有优化属性的新分子的框架。在自动化学设计的原始模型中，变分自编码器（VAE）的潜在空间上加入了贝叶斯优化，但这样往往会产生无效的分子结构。作者基于经验推测，当贝叶斯优化处理潜在空间中远离训练数据的点时，就会出现这种问题。通过将搜索过程重新定义为一个约束贝叶斯优化的问题，就可以有效缓解产生无效分子的问题，并且显著提高生成分子的有效性。作者认为约束贝叶斯优化是解决原始模型这类问题的一种好方法。

1.研究背景

机器学习在化学设计的许多方面都展现出了良好的前景。在定量构效关系(QSAR)的建模中，深度学习模型在预测分子性质和量化性质的不确定性方面取得了最先进的成果。本文的重点是分子的生成，利用机器学习生成有效的新分子。

一种现有的寻找特定指标最大化的分子的方法是搜索一个大型的化合物库，无论是物理的还是虚拟的。第二种方法是使用遗传算法。在这种方法中，一个已知的分子作为种子，在一个离散的分子空间中进行局部搜索。

尽管这些方法在产生生物活性化合物方面取得了成功，但在一个开放的、连续的空间进行搜索的方法将是有益的。使用几何线索，如梯度来指导连续空间的搜索，结合贝叶斯优化方法的进展，可以加速药物和材料的发现。

最近，G´omez-Bombarelli等人提出了自动化学设计，利用变分自编码器(VAE)结构编码连续表示分子。在连续的潜在空间中，基于梯度的优化可以找到最大化设计指标值的分子。但自动化学设计不能高比例的生成有效分子。作者推测这是由于贝叶斯优化选择的分子位于了VAE潜在空间的“死区域”中，在解码时产生了无效的结构。本文的工作旨在提出一种基于约束贝叶斯优化的方法，从而很高比例的生成有效分子结构，解决产生无效分子结构的问题。

2.实验模型

文中作者使用SMILES码来表示分子，这样有助于将自然语言处理工具应用于化学中。作者将SMILES码，变分自编码器，约束函数放在了一起，如图1所示：

图1: SMLIES码在VAE模型中学习过程。

本文提出的方法旨在解决VAE潜在空间中的“死区域”问题。因此，了解这些死区的起源是很重要的。产生“死区域”的原因是：（1）高维度的潜在空间将在训练期间的学习流形中产生“死区域”。（2）由于不均匀的训练数据，数据空间的未采样区域可能在潜在空间中产生缺口。图2中表现了从“死区域”采样对SMLIES码的相关影响。在作者的实验情况下，贝叶斯优化与VAE是解耦的，因此不知道学习到的流形位置。在许多情况下，贝叶斯优化获取阶段的探索性行为将推动无效点的选择。

图2 : VAE产生的分子在潜在空间的二维主成分分析，X轴和Y轴是主成分分析选择的两个主要成分，右边色块表示不同值显示的颜色。直方图显示了潜在点的坐标投影密度。

3.实验与结果

文中作者构建了一个二分类贝叶斯神经网络 (BNN) 作为约束函数，输出潜在点的有效的概率，将约束贝叶斯优化与原始模型进行了比较，比较内容包括生成分子的有效性、真实性和类药性。同时也比较了约束贝叶斯优化与原始模型生成分子的质量。

3.1推测验证

约束贝叶斯优化算法（BNN）的构造中有2个隐藏层，每层100个单位宽，含有ReLU激活函数和一个逻辑输出。微批量大小设置为1000，网络经过5个周期的训练，学习速率为0.0005。使用Kriging-Believer算法进行20次并行贝叶斯优化的迭代。训练数据集每批为50个，数据来自ZINC数据库中随机提取的249,456个类药物分子。通过实验证明：随着离潜在空间的训练数据越来越远，解码出的有效分子的概率明显下降。

3.2分子有效性比较

约束函数BNN被初始化为117440个正类点和117440个负类点。正类点是通过解码器解码训练数据获得的。负类点是通过在设计空间的56个潜在维度上均匀随机采样的解码点来收集的。每个潜在点经历了100次解码尝试。

表1 : 受约束（constrained）和无约束贝叶斯优化（baseline）生成有效分子的百分比概率。

在生成真实分子方面，文中比较了约束贝叶斯优化和无约束贝叶斯优化（原始模型）的表现。结果表明，约束贝叶斯优化解码的潜在点产生真实分子概率超过80%，而无约束贝叶斯优化小于5%。如图3所示，约束和无约束贝叶斯优化生成新颖分子的百分比也在图中所示。

图3 : baseline为原始模型，constrained为约束贝叶斯优化模型（a）: 被解码为真实分子的潜在点的百分比概率。(b) : 被解码为新颖的真实分子的潜在点的百分比概率。

可以观察到，约束贝叶斯优化在生成新颖分子方面优于无约束贝叶斯优化，但并没有很大幅度，作者对产生的新颖分子进行了药物相似性的进一步测试，通过来自ChEMBL数据库的8组警示结构对新分子进行过滤，其结果如表2。

表2 : 新分子中能通过ChemBL警示结构的概率。

我们可以观察到，约束贝叶斯优化产生的新颖分子的药物相似性更高。

3.3分子质量比较

通过三种药物相似性指标，将约束贝叶斯优化与无约束贝叶斯优化相比，能产生更高质量的分子。经过5次独立运行，训练集/测试集=90/10的结果表示在表3中。

表3 : 新分子得分超过训练集数据得分的百分比概率。

其中约束贝叶斯优化生成的分子的质量得分明显更高。

3.4任务拓展

为了证明约束贝叶斯优化方法可扩展到药物设计领域之外，作者把该模型应用于哈佛的清洁能源项目，生成“功率转换为效率”(PCE)的属性更优化的分子。实验进行了3次独立测试，训练集:测试集为90:10，由约束贝叶斯优化模型生成的最佳分子PCE平均得分超过90%以上的训练集数据，结果如图4所示。

图4 : 由约束贝叶斯优化模型所产生的新分子的最佳分数。

4.结论

约束贝叶斯优化在自动化学设计模型领域中的改进:（1）由约束贝叶斯优化所生成的分子有效的概率更高。在原模型的基础上提升较大。（2）在5次独立的训练和测试，约束贝叶斯优化生成的分子分数始终超过训练集的90%以上。这些实验证明了约束贝叶斯优化可以解决无约束分子生成方法中存在的训练集不匹配的问题。并且在任何基于VAE的贝叶斯优化方案中，约束贝叶斯优化都可以解决训练集不匹配的问题。

参考资料
Constrained Bayesian optimization for automatic chemical design using variational autoencoders Crossref DOI link: https://doi.org/10.1039/C9SC04026A----------- End -----------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

中国在南极发现的“海上粮仓”能养活14亿人？

CHEM SCI｜基于约束贝叶斯优化，采用变分自编码器进行自动化学设计

您可能也对以下帖子感兴趣

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

中国在南极发现的“海上粮仓”能养活14亿人？

生成图片，分享到微信朋友圈

CHEM SCI｜基于约束贝叶斯优化，采用变分自编码器进行自动化学设计

您可能也对以下帖子感兴趣